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METHODE D' IDENTIFICATION DE MOTIFS ET/OU DES COMBINAISONS 

DE MOTIFS PRES ENTANT UN ETAT BOOLEEN DE MUTATION 

PREDETERMINES DANS UN ENSEMBLE DE SEQUENCES ET SES 
APPLICATIONS. 

L' invention appartient au domaine d' analyse des 
sequences de nucleotides et/ou d'acides amines composant 
les organismes vivants, en particulier 1' analyse de 
mutations particulieres que lesdites sequences peuvent 
presenter. 

Elle concerne des methodes d' identification et 
de selection de fragments de sequences d'acides nucleiques 
ou de proteines constituSs par et/ou comprenant des motifs 
presentant des caracterist iques de mutabilite specif iques, 
elle concerne egalement des compositions pharmaceut iques 
contenant lesdites fragments pour la preparation de 
medicaments utiles pour le traitement et/ou la prevention, 
de pathologies humaines, animales et/ou veg€tales ou pour 
la preparation de cibles therapeutiques utiles pour le 
criblage de composes therapeutiques. 

On connait que des mutations induites dans les 
sequences sauvages d' organismes pathogenes sont par 
exemple, responsables des mecanismes d' echappement 
therapeutique, c'est £ dire de la capacite des organismes 
pathogenes, viraux ou bacteriens, a resister a un 
traitement therapeutique. Les sequences nucleotidiques 
et/ou polypeptidiques des souches mutantes desdits 
organismes pr£sentent en effet des mutations particulieres 
par rapport aux sequences nucleotidiques ou polypeptidiques 
des souche s sauvage s 



De telles mutations sont egalement 
determinantes de changements fonctionnels des genes ou des 
proteines qui ont pour consequence 1' alteration de nombreux 
processus biologiques, tels que le declenchement de la 
reponse immune, 1 ' inf ectivit§ des virus, 1'apparition de 
cancers, etc. 

On connait, par exemple, que 1 ' inf ormation 
gen£tique du virus de 1 ' immunodef icience humaine (VIH) , 
appartenant a la famille des retrovirus, est support£e par 
deux molecules d'ARN. Lors de 1' infection, 1' integration du 
genome viral S celui de la cellule hote ne peut done se 
faire directement. La synthese prealable d'une copie d'ADN 
£ partir de l'ARN genomique du virus est une 6tape 
determinante du cycle infectieux. L ! enzyme responsable de 
cette transcription inverse est une proteine appelee 
Reverse Transcriptase (RT) . La faible f id61ite reverse- 
t r ans cr ip t ionne lie de cette derni^re confdre au virus une 
grande variability genomique. On estime que chez un 
individu s^ropositif non traite, une mutation apparait par 
replication, et done pour les dix milliards de virus 
produits par jour, il y a 10 milliards de mutation 
nouvelles. Cette mutation peut entrainer une resistance £ 
un ou plusieurs antir6troviraux et ainsi generer des 
"souches" plus virulentes car de plus en plus resistantes. 

Face a cette problematique, les praticiens 
prescrivent des traitements tres lourds, tels que la 
tritherapie a long terme, depuis peu la quadritherapie et 
peut etre plus a l'avenir, profitant de 1 1 absence de virus 
resistant qui caracterise en general les patients non 
encore traites et infectes par une seule forme du virus. 
Ces traitements provoquent alors une forte diminution de la 



charge virale, consider^e comme la quantity de particules 
virales circulant dans le sang, le nombre de mutants viraux 
qui est directement proportionnel S la charge virale, 
diminue £galement, r^duisant ainsi les risques 
d 1 echappement therapeutique . 

Malheureusement , ces traitements extremement 
lourds s 1 accompagnent de nombreux effets secondaires. lis 
n^cessitent, en outre, une compliance parfaite qui, 
lorsqu'elle n'est pas respect§e, s'accompagne presque 
systematiquement de 1 ' emergence de souches resistantes. Ces 
resistances s^lectionnees sous la pression des 
antiretroviraux sont a l'origine de la plupart des 
echappement s therapeutiques . 

Ainsi, alors que le choix d'une combinaison 
d' antiretroviraux apparait comme fondamental, 1 ■ association 
optimisee de ces derniers ne semble pas evidente. Outre les 
problemes multiples pos^s par les resistances que nous 
venons de d^crire, 1 1 incompatibility de certaines 
associations medicamenteuses et le nombre tou jours 
croissant de molecules antiretrovirales rendent le travail 
des praticiens de plus en plus ardu. 

A l'heure actuelle les medecins disposent d'une 
vingtaine de composes therapeutiques, essentiellement 
dirigSs contre deux proteines virales, la reverse 
transcriptase et la protease* Les traitements les plus 
usuels sont les tritherapies . On en d^nombre 252 possibles 
lorsqu'on ne considere que les associations les plus 
courantes. Ces calculs sont statistiques et ne prennent pas 
en compte les diff^rentes incompatibilites medicamenteuses. 
De plus, 1' apparition de nouveaux principes actifs issus de 
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la recherche pharmaceutique aura pour consequence directe 
de compliquer encore le probleme du choix de la combinaison 
medicamenteuse . 

L'activite d'autres organismes pathogenes est 
tout aussi preoccupante, le virus de la grippe a ete 
responsable de 20 millions de deces durant le XX 6me siecle 
et le virus Ebola emerge de fa<pon alarmante. Les hepatites 
A, B, C, D et E constituent de veritables prior ites de 
sant£ publique, de par leur etat booleen et leur gravity 
potentielle . 

Or, dans tous les cas il y a un vide 
therapeutique et vaccinal qui s'accroit chaque annee a 
cause de la grande mutability des genomes viraux: 
sp^cialement des retrovirus, virus a ARN tels que VIH, 
grippe, Ebola, hepatite C, etc. 

Plusieurs approches ont et6 proposees pour 
tenter de resoudre ces problemes de multiresistance liee a 
la haute mutabilite de certains organismes pathogenes, 
ainsi, par exemple, la societe Virco Tibotech, a developpe 
une methode geree par un logiciel qui permet la comparaison 
d'un genotype donn6 a toute une banque de sequences VIH. II 
definit ensuite la liste des resistances possibles aux 
compo s € s ant i r £ t r o v i r aux . 

Aussi, certains sites web, tel que celui de la 
Los -Alamos Library (http: //hiv-web. lanl .gov/) f ournissent 
un grand nombre de donnees concernant les alignements de 
sequences protSiques de VIH ainsi que les mutations s'y 
rapport ant . 



De meme, plusieurs publications de Ribeiro et 
al,, divulguent des mythodes mettant en oeuvre de calculs 
d'etat booleens d 1 apparition de mutants resistants en 
utilisant des calculs mathematiques assez complexes. 

Aussi, des methodes visant a identifier des 
mutations des motifs constituants des sequences 
nucleotidiques ou polypeptidiques ont ete developp^es, par 
exemple, celles qui ont permis, dans les ann^es 80 de 
classer les gdnes des immunoglobulines en classes et sous- 
classes, comportant des domaines constants et des domaines 
variables en fonction de la variability de motifs des 
differentes sequences qui les composent . 

Cependant ces methodes ne permettent pas 
d' identifier des motifs dont la possibility de mutation est 
predeterminee par rapport a 1' ensemble de sequences 
analysee. Dans le cadre de la present e invention, cette 
possibility de mutation correspond a un etat booleen de 
ladite mutation. 

La m^thode de 1' invention a pour objet 
1 ' identification de plusieurs motifs dont l'etat booleen de 
mutation relative, par rapport a un ensemble de sequences 
donnees, est predeterminee. Cette methode est basee sur 
1 ' identification soit des motifs ou de combinaisons de 
motifs n'ayant jamais mute simultanyment , soit de motifs ou 
de combinaison de motifs ayant mute simultanyment, au moins 
une fois sur au moins une des sequences de 1' ensemble et 
n'ayant pas muty sur les autres syquences dudit ensemble. 

La presente invention const itue un nouvel outil 
pour permettre de trouver des solutions plus durables lors 



des traitements therapeutiques des pathologies impliquant 
des organismes pathogenes ou des genes humains, pr^sentant 
un haut degre de mutability. 

L' invention a aussi pour objet 1 ' utilisation 
des sequences constitutes ou comprenant lesdits motifs 
et/ou des combinaisons des motifs ainsi identifies pour la 
preparation de medicaments et/ou de vaccins utiles pour le 
traitement ou la prevention de pathologies humaines, 
animales ou vegttales, la preparation de cibles 
therapeutiques utiles pour le criblage de tels medicaments, 
1'arrimage (docking) d'un medicament sur sa cible, la 
conception de nouvelles methodes d'aide au diagnostic, oil 
par exemple, le choix d'un ou plusieurs composes 
therapeutiques s' ef f ectuerait en fonction de la mutability 
des organismes pathogenes a l'origine de la maladie d'un 
patient donne. 

Au sens de la present e invention on entend par 
motif un nucleotide susceptible de faire partie d'une 
sequence d'acide nucleique ou d'un oligonucleotide 
synthetique, designe ci-apres par son code unicaractere: A, 
G, C, T ou U, correspondant a la nomenclature de la base 
respective (adenine A, guanine G, cytosine C, ou thymine T 
dans 1'ADN, ou uracile U dans 1 1 ARN) dont ils sont 
constitute . 

On entend egalement par motif un acide amine, 
quelle que soit sa configuration, susceptible de faire 
partie d'une proteine ou d'un peptide naturel ou 
synthetique, design^ par son code unicaractere tels que par 
exemple, ceux reprtsentes dans le tableau ci-dessus. 



Code des acides amines 



Code 


aa 


A 


Alanine 


C 


Cysteine 


D 


Acide Aspartique 


E 


Acide Glutamique 


F 


Phenyl alanine 


G 


Glycine 


H 


Histidine 


I 


Isoleucine 


K 


Lysine 


L 


Leucine 


M 


Methionine 


N 


Asparagine 


P 


Proline 


Q 


Glutamine 


R 


Arginine j 


S 


Serine 


T 


Threonine 


V 


Valine 


W 


Tryptophane 


Y 


Tyrosine 



On entend par sequence, . tout enchainement de 
motifs tels que ci-dessus definis, susceptible de 
constituer une sequence d'un acide nucleique ou un fragment 
de celui-ci d'un organisme vivant ou une sequence d'une 
proteine ou un fragment de celle-ci d'un organisme vivant y 
compris les sequences sauvages, les sequences mutantes ou 
encore, des sequences artif icielles analogues de celles-ci 
obtenus par synthese chimique ou biologique selon des 
methodes connues de 1'homme du metier. A titre d'exemple, 
et de maniere non limitative, on entend par sequence 
contenant de tels motifs, un groupe de gdnes, un gene, ou 
un fragment de celui-ci, un groupe de prot^ines, une 
proteine ou un fragment de celle-ci. 
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On entend par variante d'une sequence toute 
sequence differant de la sequence originale ou sauvage par 
au tnoins un motif. 

Ainsi 1' invention a pour objet 1' identification 
de motifs n'ayant jamais mute simultanement parmi tous les 
membres d'un ensemble de sequences. L' identification de 
tels motifs est un enjeu majeur des nouveaux developpements 
pharmacologiques, tant au niveau des cibles therapeutique 
comme au niveau de composes therapeutiques recherch^s, 
notamment dans le cadre de resistances et de 
multiresistances developp^es par des organismes pathogenes 
nocifs tant pour 1'espece animal comme pour l'espece 
vegetal . 

Li' invention concerne aussi 1 ' utilisation de ces 
fragments de sequences constitues par et/ou comprenant des 
motifs n'ayant jamais mute simultanement pour la 
preparation de cibles therapeutiques utiles pour le 
criblage de medicaments ainsi que pour la preparation de 
vaccins diriges contre des organismes pathogenes et en 
particulier contre des organismes pathogenes presentant un 
degree el eve de mutabilite. 

L' invention concerne enfin 1 ' utilisation de 
sequences constitutes par et/ou comprenant des motifs 
n'ayant jamais mute simultanement pour la preparation des 
composes utiles pour la prevention et le traitement de 
pathologies humaines et/ou animales et en particulier des 
pathologies dont des genes responsables presentent un haut 
degree de mutabilite. 

L' utilisation de fragments de sequences 
particulieres desdits organismes pathogenes, constitues par 
et/ou comprenant lesdits motifs qui n'ont jamais mute 
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simultanement en tant que composes th^rapeutiques 

permettra, entre autres, de: 

Dirninuer 1' apparition de resistances aux 

traitements th^rapeutiques ; 
5 - Stabiliser la sant£ du patient sur le long 

terme en permettant 1' utilisation des medicaments 

disponibles sur le marche plus longtemps; 

- Eviter 1' apparition de maladies opportunistes 

ce qui diminuera le cout global du traitement; 
10 - Dirninuer la duree et le cout des 

investissements en recherche et developpement dans 

1 ' industrie pharmaceutique . 

La presente invention propose done un nouvel 
15 outil pour optimiser le choix des traitements 

therapeutiques diriges contre des organismes pathogenes a 
fort taux de mutabilite ou contre des pathologies dues a 
1' apparition de mutations,. 

La methode d' identification de motifs de 
1' invention consiste £ comparer un sous-ensemble de 
variantes d'une meme sequence nucleotidique ou 
polypeptidique d' un organisme pathogdne donne, au moyen 
d'une sequence de reference, par exemple une sequence 
consensus, et a identifier lors de cette comparaison, les 
motifs desdites sequences qui ne mutent jamais 
simultanement ou les motifs qui mutent simultanement au 
moins une fois sur au moins une des sequences du sous- 
ensemble et ne mutent pas sur les autres sequences dudit 
sous -ensemble . 
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30 



Plus precis§ment 1' invention a pour ob j et une 
methode d' identification d'un motif ou d'une combinaison de 



motifs prSsentant un Stat boolSen de mutation predeterminee 
dans un ensemble de sequences, caracterisee en ce qu'elle 
comprend les Stapes suivantes; 

a) 1' alignement de sequences de motifs ordonnes 
representees par leur code unicaractere, 

b) la comparaison d'une sequence de reference a 
1' ensemble de sequences alignees a 1'etape (a), 

c) 1' identification des motifs n'ayant jamais 
mutS simultanement ou des motifs ayant mutS simultanement 
au moins une fois sur au moins une des sequences de 
1' ensemble et n'ayant pas mute sur les autres sequences 
dudit ensemble . 

Selon un premier mode de realisation de 
1' invention, le motif ou la combinaison de motifs a 
identifier est un nucleotide ou une combinaison de 
nucleotides et le sous-ensemble de sequences peut etre 
extrait d'une banque de donnes d'acides nucleiques. 

Selon un deuxieme mode de realisation, le motif 
ou la combinaison de motifs a identifier est un acide amine 
ou une combinaison d'acides amines et le sous-ensemble de 
sequences peut etre extrait d'une banque de donnes de 
polypeptides et/ou de protSines. 

L' alignement des sequences peut-etre effectue 
selon toute methode d' alignement connue de l'homme du 
metier . 

Par exemple, lorsque le nombre de sequences du 
sous-ensemble que l'on utilise est inferieur a 100, on peut 
utiliser la mSthode d' alignement Clustal W. (Thompson, 
J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL. W: 
improving the sensitivity of progressive multiple sequence 
alignment through sequence weighting, positions-specific 



gap penalties and weight matrix choice. Nucleic Acids 
Research, 22:4673-4680) . 

Si le nombre de sequences a analyser est plus 
important, par exemple, superieur £ 100, l'alignement 
propose par Clustal W est trop long et on peut alors avoir 
recours a un alignement iteratif bas€ sur un modele de 
Markov cache, ci apres designe HMM. (Sean Eddy. * Hidden 
Markov Models ", Curr.Opin. Struct .Biol . Vol.6, pages 3 61- 
365, 1966) . 

Dans ce dernier cas, il est cr6e, par exemple, 
un premier sous-ensemble de 100 sequences extraites de 
1' ensemble de sequences a analyser, auquel on applique la 
mtthode de Clustal pour obtenir un premier alignement. 

A partir de ce premier alignement, on cr6e un 
modele de Markov cach§ (HMM) le module est 6ventuellement 
calibr^ afin de le rendre plus sensible, puis on ajoute 
audit premier alignement des nouvelles sequences qui seront 
a leur tour alignees en utilisant a nouveau HMM 

Avantageusement, la sequence de reference de 
l'§tape (b) est constitute par une sequence sauvage, ou par 
une sequence consensus comportant en position i le motif 
present en position i dans un nombre predetermine des 
sequences de l'etape (a), par exemple dans plus de 30% 
desdites sequences et plus pr§f erentiellement dans plus de 
75% desdites sequences, ces valeurs pouvant etre reglables 
selon les cas. 

Avantageusement, l'etape (b) de comparaison de 
sequences de la m6thode d' identification de 1' invention 
consiste a: 
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- constituer une premiere matrice numerique A 
de dimensions NxM oO N d§signe le nombre de sequences et M 
designe le nombre de motifs d'une des sequences dudit 
alignement, la valeur Ai,j §tant ggale a une premiere valeur 
Al [par exemple "0"] lorsque le motif de position i de la 
sequence j est mute par rapport au motif de position i de 
la sequence de reference, et £gale a une deuxieme valeur A2 
[par exemple "1"] dans les autres cas, 

- constituer deux matrices d' analyse B, C des 
mutations oti ces matrices sont : 

- une matrice B de couples non mutes, c'est-a- 
dire de couples qui ne mutent jamais simultanement , de 
dimension MxM, la valeur B i#)t = B kfi 6tant £gale : 

• a une premiere valeur Bl [par exemple "0"] 
lorsque Ai,j = A k ,j = Al quel que soit j 
allant de 0 S N, 

• a une deuxieme valeur B2 [par exemple "1"] 
dans les autres cas; 

- une matrice C de couples mut£s [c'est-a-dire 
de couples qui mutent soit tou jours, soit jamais 
simultanement] de dimension MxM, la valeur C k#i = C i/k <§tant 
egale : 

• a une deuxieme valeur CI [par exemple "1"] 
lorsque Ai,j e A k| j quel que soit j allant de 
0 a N, 

• £ une premiere valeur C2 [par exemple "0"] 
dans les autres cas; 

a determiner, pour un ensemble E de 
positions, un coefficient R E dont la valeur est Ri [par 
exemple "1"] lorsque toutes les valeurs Bi, k sont egales a 
la deuxieme valeur B 2 , quels que soient i et k appartenant 
a 1' ensemble E desdites positions, ou iDk. 

a determiner, pour un ensemble F de 
positions, un coefficient R F dont la valeur est R x [par 



exemple "1"] lorsque toutes les valeurs C i/k sont egales a 
la deuxieme valeur CI, quels que soient i et k appartenant 
a 1' ensemble F desdites positions, ou iOk. 

Avantageusement , la matrice de couples mutes de 
1' invention permet d' identifier deux motifs ayant mute 
simultanement au moins une fois sur au moins une des 
sequences de 1' ensemble et n' ayant pas mute sur les autres 
sequences dudit ensemble. 

L' invention concerne egalement l'algorithme 
d£velopp6 pour effectuer la comparaison des sequences 
contenant lesdits motifs et 1 ' identification des motifs de 
celles-ci, soit ayant mute simultanement au moins une fois 
sur au moins une des sequences de 1' ensemble et n' ayant pas 
mut6 sur les autres sequences dudit ensemble et consistant 
a : 

- constituer une premiere matrice numerique A 
de dimensions NxM oil N designe le nombre de sequences et M 
designe le nombre de motifs d'une des sequences dudit 
alignement, la valeur A±,j 6tant egale a une premidre valeur 
A x [par exemple "0"] lorsque le motif de position i de la 
sequence j est mute par rapport au motif de position i de 
la sequence de reference, et <§gale a une deuxieme valeur A 2 
[par exemple "1"] dans les autres cas, 

- constituer deux matrices d' analyse B, C des 
mutations M ou cette matrice est : 

- une matrice B de couples non mutSs, c'est-a- 
dire de couples qui ne mutent jamais simultanement, de 
dimension MxM, la valeur B i/k = B k/i etant ggale : 

• a une premiere valeur Bl [par exemple "0"] 
lorsque A it j = A kf j= 0 quel que soit j allant 
de 0 a N, 

• a une deuxieme valeur B2 [par exemple " 1"] 
dans les autres cas; 
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- une matrice C de couples mut£s [c 1 est-a-dire 
de couples qui mutent soit au moins une fois simultanement , 
soit jamais] de dimension MxM, la valeur d,* = C k(i/ etant 
egale : 

• a une deuxieme valeur CI [par exemple "1"] 
lorsque A i# j = Ak,j quel que soit j allant de 
0 a N, 

• a une premiere valeur C2 [par exemple "0"] 
dans les autres cas; 

a determiner, pour un ensemble E de 
positions, un coefficient R E dont la valeur est Rl [par 
exemple "1"] lorsque toutes les valeurs B i/)c sont §gales a 
la deuxieme valeur B2 , quels que soient i et k appartenant 
a 1» ensemble E desdites positions, ou iDj . 

a determiner, pour un ensemble F de 
positions, un coefficient R P dont la valeur est Rl [par 
exemple "1"] lorsque toutes les valeurs Ci,* sont egales a 
la deuxieme valeur C2, quelles que soient i et k 
appartenant a l 1 ensemble F desdites positions, oil id j . 

De preference les sequences analysees par la 
methode d' identification de 1' invention est constitue par 
un sous-ensemble de sequences extrait d'une banque des 
sequences nucl£otidiques ou polypeptidiques d'organismes 
pathogenes et tout pr£f erentiellement par des sequences 
nucl6otidiques ou polypeptidiques d'organismes pathogenes 
presentant un taux el eve de mutabilite. 

Selon un mode de mise en oeuvre particulier le 
sous -ensemble de sequences comprend toutes les sequences 
polypeptidiques des differentes variantes connues de la 
protease du virus de 1 ' immunodef icience humaine . 
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Selon une autre mise en oeuvre particuliere de 
1' invention le sous -ensemble de sequences comprend toutes 
les sequences polypeptidiques des differentes variantes 
connues de la transcriptase inverse du virus de 
1 ' immunodef icience hurnaine. 

Selon une autre mise en oeuvre particuliere de 
1' invention le sous-ensemble de sequences comprend toutes 
les sequences polypeptidiques des differentes variantes 
connues de l'integrase du virus de 1 ' immunodef icience 
hurnaine . 

1/ invention concerne 1 ' identification de motifs 
appartenant a tout agent pathogene dont les sequences 
d'acides nucleiques et/ou polypeptidiques sont susceptibles 
de presenter des mutations. 

A titre d'exemple de telles sequences et de 
maniere non limitative , on peut citer les sequences de 
virus telles que le virus de 1' hepatite C qui est un virus 
a ARN caracterise par la grande variability de son genome, 
avec 3% de prevalence mondiale et 600 000 personnes 
infectges en France, les sequences du virus ebola qui 
provoque des fievres hemorragiques et qui est associe a un 
fort taux de mortalite, les sequences du virus de la grippe 
pour lequel il est necessaire de developper de nouveaux 
vaccins chaque annee on les sequences de tout autre virus 
emergeant & fort taux de mutability. 

Ainsi, selon une mise en oeuvre particuliere de 
1' invention le sous-ensemble de sequences extrait comprend 
toutes les sequences polypeptidiques des differentes 
variantes de la neuraminidase du virus de la grippe. 

Selon une autre mise en oeuvre particuliere de 
1' invention le sous-ensemble de sequences extrait comprend 



toutes les sequences polypeptidiques des difftrentes 
variantes de 1 ' hSmagglutinine du virus de la grippe. 

Aussi, parmi les s£quences de bacteries 
susceptibles de presenter des mutations on peut ggalement 
citer a titre d' exemple, la sequence C-terminal de la 
proteine HspA de la bacterie Helicobacter Pilori ou 
l'adhesine du type HA de la bacterie Escherichia Coli. 

La m£thode d' identification de motifs de 
1' invention n'est pas limitee au seul domaine des agents 
pathogdnes. Des ensembles de sequences presentant des 
motifs n'ayant jamais mut£ simultan6ment , ou au contraire 
ayant mute simul tankmen t au moins une fois sur au moins une 
des sequences de 1' ensemble et n'ayant pas mute sur les 
autres sequences dudit ensemble, sont Sgalement prtsentes 
dans d' autres pathologies, comme par exemple, des 
pathologies dans le domaine de la cancerologie . 

On admet, en effet qu'une grande partie des 
cancers est due a la presence d 1 Elements transposables 
ayant une grande homologie d 1 organisation avec les virus, 
et que le virus de I 1 hepatite B est la deuxieme cause 
identifi^e de mort par cancer apres le tabac . 

Aussi, parmi les genes impliqu§s dans des 
cancers humains, susceptibles de presenter des motifs qui 
mutent et pour lesquels des ensembles de sequences ont 
parfois ete constitutes ont peut citer a titre d' exemple : 
le gene APC , implique essentiellement dans le cancer du 
colon (Nucleic Acids Res 1998 Jan 1;26 (1) :269-70, APC gene: 
database of germline and somatic mutations in human tumors 
and cell lines. Laurent-Puig P, Beroud C, Soussi T.), le 
gene P53 (Nucleic Acids Res 1997 Jan 1;25(1):138 p53 and 
APC gene mutations: software and databases. Beroud C, 
Soussi T.), MEN-1 (A malignant gastrointestinal stromal 
tumour in a patient with multiple endocrine neoplasia type 
1. Papillon E, Rolachon A, Calender A, Chabre O, Barnoud R, 
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Fournet J.), VHL (Mutations of the VHL gene in sporadic 
renal cell carcinoma: definition of a risk factor for VHL 
patients to develop an RCC. Gallou C, Joly D, Me jean A, 
Staroz F, Martin N, Tarlet G, Orfanelli MT, Bouvier R, Droz 
5 D, Chretien Y, Marechal JM, Richard S, Junien C, Beroud 

C.) , WT1 (Clin Cancer Res 2000 Oct ; 6 (10) : 3957-65 . WT1 
splicing alterations in Wilms 1 tumors, Baudry D, Hamelin M, 
Cabanis MO, Fournet JC, Tournade MF, Sarnacki S, Junien C, 
Jeanpierre C.) 

10 

L' invention a aussi pour objet 1' utilisation de 
la m^thode d' identification de motifs d6crite ci-dessus 
pour la selection de fragments de sequences constitues par 
15 et/ou comprenant des motifs n'ayant jamais mute 

simultanement pour la preparation de vaccins. 

Les vaccins sont composes d'antigenes 
constitues par des molecules ou parties de molecules d'un 

20 organisme pathogene qui lorsqu'ils sont injectes dans 

l'organisme permettent de produire un plus grand nombre 
d'anticorps contre ledit organisme pathogene. Ces anticorps 
reconnaissent les molecules contre lesquelles ils sont 
dirigSs et permettent ainsi au systdme immunitaire de 

25 d£truire ledit organisme pathogene. 

Or il s'^coule toujours un laps de temps non 
n^gligeable, parfois plusieurs annges, entre le moment ou 
I 1 on definit le vaccin et le moment ou il arrive sur le 
30 marche. Par exemple en ce qui concerne le virus VTH, La 

faible fidelite de polymerisation de la reverse- 
transcriptase confere au virus une grande variability 
ggnomique qui augmente en fonction du temps. La population 
virale est ainsi tres h§terogene. La destruction du virus 
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sauvage par le biais du vaccin conduit a la selection des 
virus mutants contre lesquels le vaccin reste inefficace. 

L' application de la ra§thode de 1' invention a 
des sous -ensembles des sequences variantes des sequences 
proteiques de l'organisme pathogdne permet de piSger ce 
dernier : 

- Soit il mute, mais,- dans ce cas, il n'est 
plus fonctionnel ; 

Soit, il ne mute pas, mais alors les 
anticorps produits S partir du vaccin permettront de le 
detruire . 

Par exemple, en ce qui concerne le virus VIH, 
Les peptides faisant partie des proteines d ! enveloppe du 
virus, identifies parce qu'ils qui ne peuvent pas muter 
ensemble, probablement due a une pression g£netique sous 
peine de perdre leur f onctionnalit£ , sont des candidats 
vaccins de choix. 

En effet, la methode d' identification de motifs 
peptidiques, permet de selectionner de sequences contenant 
lesdits motifs, de maniere contigue ou non, afin d'elaborer 
un candidat vaccin. Ledit vaccin presente comme avantage, 
par rapport aux autres vaccins £labor6es par des voies 
classiques, d'etre decrit de fa<?on exhaustive et de 
contenir de maniere certaine les regions n^cessaires a la 
stabilite dudit vaccin precisement par le choix des 
sequences ne pouvant pas muter ensemble simultanement , 
entrainant ainsi la destruction de 1'organisme pathogene . 
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L' identification des motifs n'ayant jamais mut£ 
simultanement est plus complexe pour deux raisons 
principales : 

- Le notnbre d'acides amines ne mutant jamais 
est a peu pres dix fois plus grand, 

La combinaison d'acides amines a tester 
n'etant pas determinee §l l'avance, toutes les combinaisons 
doivent etre envisag^es. 

L' invention concerne egalement 1 ' utilisation 
des fragments de sequences constitu^s par et/ou comprenant 
des motifs nucieotidiques et/ou peptidiques des sequences 
analys6es; n'ayant jamais mute simultanement pour la 
preparation de vaccins. 

L' invention a Egalement pour objet 
1' utilisation d'une telle methode d' identification de 
motifs ou de combinaison de motifs n'ayant jamais mute 
simultanement pour la conception d'outils d'aide au 
diagnostic . 

En effet, la methode de 1' invention permet 
Egalement de construire une base de connaissances qui 
constitue un outil d'aide a la decision, par exemple lors 
de la determination par le medecin de 1 ' administration des 
traitements anti-viraux a un patient donne . 

Selon un autre mode de mise en oeuvre de 
1' invention, la methode d' identification de motifs n'ayant 
jamais mute simultanement comprend une etape suppiementaire 
consistant a comparer des donnees reliant les resistances 
medicament euses connues aux mutations observees, par 
exemple dans les cas du VIH aux donnees divulguees par J, 



Hammond et al . dans u Mutations in Retroviral Genes 
Associated with Drug Resistance " . (The Human Retroviruses 
and AIDS Compendium. 19 99) 

La relation drogue-acide amine mute, ainsi mise 
en evidence, est tres utile pour optimiser le traitement. 
Par exemple, en ce qui concerne le virus VIH, la 
comparaison des motifs peptidiques s'effectue sur trois 
sous-ensembles d'une base de donnees proteiques, celui de 
la reverse transcriptase, celui de la protease et celui de 
1 ' integrase (ht tp : //hiv- web . lanl . gov/ ) . 

La comparaison des sequences appartenant audits 
sous -ensembles comprenant de 300 a 8000 sequences, ou de 
fragments desdites sequences, de chacune de ces trois 
proteines, permet en appliquant la methode de 1' invention, 
d' identifier des combinaisons d'acides amines qui n'ont 
jamais mute simultanement . 

Ainsi, la methode de 1' invention permet alors 
d' identifier les mutations induites sous la pression de 
selection . 

Alors la methode de 1' invention, comprenant la 
comparaison avec lesdites resistances medicamenteuse permet 
de choisir une combinaison de drogues de manidre a ce que 
les mutations d'acides amines susceptibles d'etre 
provoquees par chacun des antiviraux, susceptibles de 
conferer la resistance aux diff brents medicaments impliques 
dans cette combinaison (moins d'une dizaine) , ne se 
produisent pas simultanement. 

L' identification de tels motifs permet la 
selection d'une combinaison medicamenteuse qui defavorise 
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l f apparition de plus d'une mutation a la fois fermant ainsi 
la porte aux pluriresistances . 

Le praticien pourra ensuite utiliser les 
informations obtenues en appliquant cette methode par 
exemple aux sequences virales isolees, ou deduites du 
genome viral isol6, d'un patient donne pour s' assurer que 
la multitherapie envisagee est en effet la plus efficace 
possible . 

L f identification d'une premiere mutation 
excluant les deux autres, une tritherapie ainsi choisie 
permet aux deux composes antiretroviraux restant de 
demeurer efficaces. 

La methode d' identification de regions 
peptidiques n'ayant pas mute simultanement selon 
1' invention apporte egalement une aide pr£cieuse lors de 
l 1 apparition de resistances chez des malades deja traites. 

La methode selon 1' invention peut par exemple 
s'appliquer a des sous -ensembles de sequences 
polypeptidiques parmi lesquelles est incluse celle ou 
celles deduites a partir du sequen<?age du genome viral 
isole du patient. 

Ainsi, si ce genotypage met en Evidence une 
mutation responsable de la resistance, la methode 
d' identification de motifs peptidiques n'ayant pas mute 
permet de mettre en oeuvre une multitherapie concpue de 
manidre a maintenir la pression de selection sur la 
mutation. 

La molecule ainsi selectionn^e sera accompagnee 
de deux ou trois autres antiretroviraux qui ciblent des 
domaines de la proteine ne pouvant pas muter en meme temps 
que la zone ayant deja mute. 
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Une telle methode est utile pour la mise en 
oeuvre de nouvelles combinaisons antiretrovirales empechant 
au maximum 1 ' echappement therapeutique . 

Aussi, par exemple, 1 ' identification de motifs, 
a l'int^rieur d'un meme gene, ayant mute au moins une fois 
simultanement sur au moins une variante et n' ayant jamais 
mute sur les autres variantes, permet d' identifier des 
regions dudit gene susceptibles de presenter une 
interaction physique ou f onctionnelle . En revanche, 
1' identification des motifs n' ayant jamais mute 
simultanement permet d' identifier des regions dudit g£ne 
dont la presence mutuelle est essentielle et indispensable 
a sa fonction. 

L' invention a egalement pour objet 
1' identification, sur un ensemble de genes ou sur un 
ensemble de sequences non-codantes, de motifs n' ayant 
jamais mute simultanement. L' identification de tels motifs 
permet de s^lectionner des regions g<§niques susceptibles de 
presenter des interactions physiques ou f onctionnelles sur 
1 ' ensemble du genome . 

Un autre objet de 1' invention concerne 
l'utilisation d'une telle methode d' identification de 
motifs ou de combinaisons de motifs pour la selection de 
fragments de sequences constitu^s et/ou comprenant des 
motifs n' ayant jamais mute simultanement pour la 
preparation de cibles therapeutiques . 

Encore un autre objet de 1' invention se 
rapporte a l'utilisation de fragments de sequences 
constitues par et/ou comprenant des motifs soit ayant mute 
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simultanement au raoins une fois sur au moins une sequence 
de 1' ensemble et n'ayant jamais mute sur les autres 
sequences de 1' ensemble pour la preparation de cibles 
therapeutiques . 

1/ invention a egalement pour objet 
1 ' utilisation des motifs ou combinaisons de motifs ainsi 
identifies pour preparer des cibles therapeutiques utiles 
pour le criblage de nouveaux composes therapeutiques 
destines a la prevention et/ou traitement des pathologies 
humaines, animales ou v^getales . 

Ainsi , la preparation, aprds avoir identifie 
des motifs n'ayant jamais mute simultanement, de fragments 
de sequence les contenant, permet la preparation d'une 
cible therapeutique contre laquelle seront testes des 
composes therapeutiques dirig£s contre ledit organisme 
pathogene et notamment des composes therapeutiques contre 
lesquels 1' organisme pathogdne sauvage ne pourra pas 
developper de mutations de resistance. 

La selection de fragments const itues et/ou 
comportant de motifs n'ayant jamais mute simultanement est 
aussi utile pour la preparation d'outils de diagnostic ou 
il nVest pas tou jours facile de detecter rapidement tel ou 
tel type ou sous -type d' organisme pathogene, car 
1 ' identification de motifs peptidiques selon l f invention 
permet la preparation des fragments de peptides comprenant 
les motifs les plus repr£sentatif s d'un sous- type 
d' organisme pathogdne. Ces fragments sont ensuite utilises 
dans des tests de detection, comme des tests 
immunoenzymatiques , par exemple. 
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Cette application de la methode de 1' invention 
consiste a identifier un ensemble de motifs indispensable & 
la fonction d f une prot£ine d'un organisme humain, animal ou 
vegetal ou d'un organisme pathogene. Ces motifs peuvent 
constituer, par exemple, un sous-ensemble d'acides amines 
connus pour jouer un role important dans la fonction de la 
proteine cibl6e. 

Avantageusement, les motifs ainsi identifies 
sont des motifs contigus de la sequence genique et 
representent une sequence lineaire dudit gene. 

Avantageusement, les motifs identifies sont des 
motifs non contigus sur la sequence lineaire du gene. lis 
peuvent alors etre utiles pour completer des etudes 
d' analyse tridimensionnelle afin de confirmer une 
eventuelle proximite spatiale non lineaire desdits motifs. 
La methode de 1' invention peut comporter alors une nouvelle 
£tape supplementaire (g) , apres l'etape (e) 

d' identification des motifs, consistant a comparer lesdits 
motifs avec les donnees de structures tridimensionnelles de 
ces proteines tels que des acides amines impliques dans le 
site catalytique et/ou dans les sites lies par des 
inhibiteurs non-competitif s. 

Cette derniere comparaison fournit une liste 
d'acides amines impliques dans la fonction proteique et ne 
mutant jamais ensemble. 

La methode d' identification de regions 
peptidiques selon 1' invention definit les peptides les plus 
representatif s d'un sous-type. Une fois identifies, ces 
peptides sont utilises dans tout test de detection connu de 



l'homme du metier, tels que des tests immunoenzymatiques, 
du type ELISA, par exemple. 

La recherche de peptides representant un sous- 
type d'un type particulier s'effectue comme indique ci- 
dessus. II s'agit de trouver des antigenes peptidiques 
capables d'etre reconnus par un serum particulier contenant 
ou non les anticorps d'un sous- type particulier. La mtthode 
selon 1' invention peut s'appliquer a n 1 importe quelle 
banque de sequences, les resultats sont compares par sous- 
types et la combinaison peptidique theorique la plus 
representative d'un type pathogene particulier est ainsi 
identif i£e . 

Les peptides ainsi identifies sont synthetises 
et testes immunologiquement contre une collection de 
serums . 

L' invention presente tout son interet 
lorsqu*elle est utilisSe pour identifier soit des motifs 
ayant mute au moins une fois ensemble, soit n'ayant jamais 
mute a partir d'un grand nombre de sequences comportant un 
grand nombre de motifs afin de selectionner des sequences 
de motifs utiles pour les diff<§rentes applications 
envisagees ci-dessus . 

Afin d'illustrer la methode d' identif ication de 
motifs de 1' invention, l'exemple ci-apr§s montre les 
diff£rentes matrices constitutes lors d'une comparaison de 
motifs effectute sur un sous-ensemble de huit sequences, a 
l'aide de la sequence de reference SVRLGHKDEV. 



POSITIONS 


0123456789 


Sequence de 
reference 
(consensus) 


SVRLGHKDEV 




Sous -ensemble 
de sequences 


Alignement 


Seq 1 


SRRLGHKDEV 


Seq 2 


SVRLGHKLEV 


Seq 3 


SRDLGHKDEV 


Seq 4 


SVRLGHLDVV 


Seq 5 


SVDLGHKTEV 


Seq 6 


SKRLGHKDEV 


Seq 7 


SVRLGHGDGV 


Seq 8 


SVRLGHKSEV 



1 - MAT RICE DE MUTATION A. 

Valeurs attributes : 

A1=0, si motif mutt par rapport a la sequence de rtftrence 
A2 = l, si autre cas (motif non mute par rapport a la 
sequence de reference) . 



POSITION 


0123456789 


Seq 1 


1011111111 


Seq 2 


1111111011 


Seq 3 


1001111111 


Seq 4 


1111110101 


Seq 5 


1101111011 


Seq 6 


1011111111 


Seq 7 


1111110101 


Seq 8 


1111111011 



m 
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2 - MATRICE NON MUT^E B 

Valeurs attribuees : 

Bl = 0, si couple de motifs mut§s simultan6ment 
5 B2=l, si autre cas (couple de motifs jamais mutes 

simultan^ment ) 



POSITION 


0123456789 


POSO 


1111111111 


POS1 


1001111111 


POS2 


1001111011 


POS3 


1111111111 


POS4 


1111111111 


P0S5 


1111111111 


P0S6 


1111110101 


POS7 


1101111011 ! 


POS8 


1111110101 


P0S9 


1111111111 



3 - MATRICE MUTEE C. 

10 

Valeurs attribuees : 

01=1, si couple de motifs mutes simultanement, ou jamais 
mute . 

C2=0, autres cas. 



POSITION 


0 1 23456789 


POSO 


0000000000 


POS1 


0000000000 


POS2 


0000000000 


POS3 


0000000000 


POS4 


0000000000 j 


POS5 


0000000000 


POS6 


0000000010 


POS7 


0000000000 


POS8 


0000001000 


POS9 


0000000000 
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L' interrogation de la matrice mut6e C permet 
ainsi d' identifier les motifs en positions 6 et 8 comme des 
motifs ayant mute au moins une fois ensemble. 



REVENDI CAT I ONS 



1) Methode d' identification d'un motif ou d'une 
combinaison de motifs presentant un etat booleen de 
mutations pred^terminees dans un ensemble de sequences, 
caract^risee en ce qu'elle comprend au moins les etapes 
suivantes : 

a) l'alignement de 1' ensemble de sequences de 
motifs ordonnes representees par leur code unicaractere, 

b) la comparaison d'une sequence de reference a 
1' ensemble de sequences alignees a 1'etape (a) , 

c) 1 ' identification des motifs n'ayant jamais 
mute simultanement ou au contraire des motifs ayant mut6 
simultanement au moins une fois sur au moins une des 
sequences de 1' ensemble et n'ayant pas mut£ sur les autres 
sequences dudit ensemble, 

2) Methode d f identification , selon la 
revendication 1 caract6ris6e en ce que le motif ou la 
combinaison de motifs est un nucleotide ou une combinaison 
de nucleotides et en ce que le sous-ensemble de sequences 
est choisi parmi les sequences d'une banque de donnes 
d'acides nucleiques. 

3) Methode d' identification selon la 
revendication 1 caractgrisSe en ce que le motif ou la 
combinaison de motifs est un acide amine ou une combinaison 
d'acides amines et en ce que le sous -ensemble de sequences 
est choisi parmi les sequences d'une banque de donnas de 
polypeptides et/ou de proteines. 



4) Proced§ d' identification selon l'une des 
revendications 1 a 3, caract^rise en ce que la sequence de 
reference utilisee pour la comparaison de l'etape (b) est 
une sequence sauvage. 

5) Proced£ d' identification selon l'une des 
revendications 1 a 3, caracteris£ en ce que la sequence de 
reference utilisee pour la comparaison de l'6tape (b) est 
une sequence comport ant en position i le motif present en 
position i dans un nombre predetermine des sequences de 
l'etape (a), par exemple dans plus de 30% desdites 
sequences et plus pref 6rentiellement dans plus de 75% 
desdites sequences. 

6) M6thode d' identification selon l'une des 
revendications 1 £ 5, caracteris^e en ce que l'etape (b) de 
comparaison de sequences consiste a : 

- constituer une premiere matrice num^rique A 
de dimensions NxM ou N designe le nombre de sequences et M 
designe le nombre de motifs d'une des sequences dudit 
alignement, la valeur Ai,j etant egale a une premidre valeur 
Al lorsque le motif de position i de la sequence j est mute 
par rapport au motif de position i de la sequence de 
reference, et 6gale a une deux i erne valeur A2 dans les 
autres cas, 

- constituer deux matrices d' analyse B, C des 
mutations ou cette matrice est : 

- une matrice B de couples non mutes, c'est-S- 
dire de couples qui ne mutent jamais simultan^ment , de 
dimension MxM, la valeur B i#k = B kfi 6tant 6gale : 

• a une premiere valeur Bl lorsque A i#j = A ktj = 
Al quel que soit j allant de 0 a N, 

• a une deuxieme valeur B2 dans les autres 
cas; 
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- une matrice C de couples mutes de dimension 
MxM, la valeur C k ,i = Ci, k etant egale : 

• a une deuxieme valeur CI lorsque A i#j = A k/j 
quel que soit j allant de 0 & N, 
5 • a une premiere valeur C2 dans les autres 

cas; 

- determiner, pour un ensemble E de positions, 
un coefficient R E dont la valeur est Rl lorsque toutes les 
valeurs B i/k sont egales a la deuxieme valeur B2, quels que 

10 soient i et k appartenant £ l f ensemble E desdites 

positions, ou i □ j . 

- determiner, pour un ensemble F de positions, 
un coefficient R P dont la valeur est Rl lorsque toutes les 
valeurs Ci, k sont §gales a la deuxieme valeur C2, quels que 

15 soient i et k appartenant £ l 1 ensemble F desdites 

positions, ou i □ j . 

7) Methode d' identification selon 1'une 
quelconque des revendications 1 S 6, caracterisee en ce que 

20 & l'etape (c) , les positions des ensembles E et/ou F sont 

designees par 1 1 utilisateur 

8) Methode d' identification selon l'une 
quelconque des revendications 1 a 6 caracterisee en ce que 

25 l'etape (c) comporte une etape de test consistant a generer 

la totalite des combinaisons de positions possibles et a 
determiner pour chacune desdites combinaisons la valeur des 
coefficients R B ou R P/ et §l retenir la combinaison 
correspondant au plus grand ensemble de positions dont le 

30 coefficient R E ou R F correspond a ladite deuxieme valeur. 

9) Methode d' identification selon l'une 
quelconque des revendications 1 S 8 caracterisee en ce que 
1'ensemble de sequences analysees est constitu£ par des 



sequences de motifs d' organismes pathogdnes et de 
preference d' organismes pathogenes presentant un taux §lev<§ 
de mutabilite. 

10) Methode d' identification selon l'une 
quelcongue des revendications 1 a 8 caracterisee en ce que 
1' ensemble de sequences analysdes est constitu<§ par des 
sequences de motifs de genes, impliques dans des 
pathologies humaines, animales ou v^getales et de 
preference presentant un taux elevS de mutabilite. 

11) Utilisation de la methode d' identification 
de motifs selon l'une quelconque des revendications 1 a 10 
pour la selection de fragments de sequence constitu^s par 
et/ou comprenant des motifs n'ayant jamais mute 
simultan6ment pour la preparation de vaccins. 

12) Utilisation de la methode d' identification 
de motifs selon les revendications 1 a 10 pour la selection 
de fragments de sequence constitu^s par et/ou comprenant 
des motifs n'ayant jamais mut£ simultan^ment pour la 
preparation de cibles therapeutiques 

13) Utilisation de la methode d' identification 
selon les revendications 1 a 10 pour la selection pour la 
selection de fragments de sequence const itues par et/ou 
comprenant des motifs n'ayant jamais mut6 simultandment 
pour la preparation de tests de diagnostic. 

14) Utilisation de la methode d' identification 
selon les revendications 1 a 10 pour la selection de 
fragments de sequence constitu^s par et/ou comprenant des 



motifs ayant toujours mute simultanement pour la 
preparation de tests de diagnostic. 

15) Utilisation des fragments de sequence 
const itues par et/ou comprenant des motifs nucleotidiques 
et/ou peptidiques, n' ayant jamais mut§ simultanement pour 
la conception de vaccina. 

16) Utilisation de fragments de sequence 
constitues par et/ou comprenant des motifs n' ayant jamais 
mute simultanement pour la preparation de cibles 
therapeutiques utiles pour le criblage de nouveaux composes 
therapeutiques destines a la prevention et/ou traitement 
des pathologies humaines animales ou vegetales . 

17) Utilisation de fragments de sequence 
constitues par et/ou comprenant des motifs ayant toujours 
mute simultanement pour la preparation de cibles 
therapeutiques utiles pour le criblage de nouveaux composes 
therapeutiques destines a la prevention et/ou traitement 
des pathologies humaines, animales ou vegetales. 

18) Utilisation de fragments de sequence 
const itu6s par et/ou comprenant des motifs n' ayant jamais 
mute simultanement pour la conception d'outils d'aide au 
diagnostic . 

19) Utilisation selon l'une quelconque des 
revendications 15 ou 16, caracterisee en ce que les 
fragments de sequence s£lectionn£s comprennent des motifs 
n' ayant jamais mute simultanement contigus. 
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20) Utilisation selon 1'une quelconque des 
revendications 14 ou 17, caracterisee en ce que les 
fragments de sequence selectionnes comprennent des motifs 
ayant mute simultanement contigus. 

21) Utilisation selon 1'une quelconque des 
revendications 15 ou 16, caracterisee en ce que les 
fragments de sequence selectionnes comprennent des motifs 
n' ayant jamais mute simultanement non-contigus. 

22) Utilisation selon l'une quelconque des 
revendications 14 ou 17, caracterisee en ce que les 
fragments de sequence selectionnes comprennent des motifs 
ayant mute simultanement non-contigus. 

23) Utilisation de fragments de sequences 
constitute par et/ou comprenant des motifs ayant tou jours 
mute simultanement pour la conception d'outils d' aide au 
diagnostic . 

24) Methode d' identification de motifs, selon 
l'une quelconque des revendications 1 ou 3 a 10 
caracterisee en ce que 1' ensemble de sequences de 1 ' etape 
(a) comprend toutes les sequences polypeptidiques des 
differentes variantes de la protease du virus de 
1 ' immunodef icience humaine . 

25) Methode d' identification de motifs, selon 
l'une quelconque des revendications 1 ou 3 a 9 caracterisee 
en ce que 1' ensemble de sequences de 1' etape (a) comprend 
toutes les sequences polypeptidiques des differentes 
variantes de la transcriptase inverse du virus de 
1 ' immunodef icience humaine . 



26) Methode d' identification de motifs, selon 
l'une quelconque des revendicat ions 1 ou 3 a 9 caracterisee 
en ce que 1' ensemble de sequences de 1'etape (a) comprend 
toutes les sequences polypeptidiques des differentes 
variantes de l'integrase du virus de 1 ' immunodef icience 
humaine . 

27) Methode d' identification de motifs, selon 
l'une quelconque des revendicat ions 1 a 10 caracterisee en 
ce que 1' ensemble de sequences de l'^tape (a) comprend 
toutes les sequences de motifs des differentes variantes du 
g£ne ou de la prot6ine de la neuraminidase du virus de la 
grippe . 

28) Methode d' identification de motifs, selon 
l'une quelconque des revendicat ions 1 a 10 caracterisee en 
ce que 1' ensemble de sequences de 1'etape (a) comprend 
toutes les sequences de motifs des differentes variantes du 
gene ou de la proteine de 1' h^magglutinine du virus de la 
grippe . 

29) Methode d' identification de motifs, selon 
l'une quelconque des revendications 1 a 10 caracterisee en 
ce que 1 ' ensemble de sequences de 1'etape (a) comprend 
toutes les sequences de motifs des differentes variantes 
d'un gdne et/ou d'une proteine du virus de l'hepatite C. 

30) Methode d' identification de motifs, selon 
l'une quelconque des revendications 1 a 10 caracterisee en 
ce que 1' ensemble de sequences de motifs de 1'etape (a) 
comprend toutes les sequences des differentes variantes des 



sequences du gene ou de la proteine HspA de la bact£rie 
Helicobacter Pilori. 

31) Methode d' identification de motifs, selon 
1'une quelconque des revendications 1 a 10, caract^ris^e en 
ce que le sous-ensemble de sequences de motifs selectionnee 
a 1' etape (a) comprend toutes les sequences des diff6rentes 
variantes du gene ou de la proteine de 1'adhesine du type 
HA de la bacterie Escherichia Coli 

32) Methode d' identification de motifs, selon 
1'une quelconque des revendications 1 a 10, caracterisee en 
ce qu'elle comprend, apres 1'etape (c) , une etape 
supplement a ire (d) de comparaison de motifs identifies lors 
de ladite etape (c) avec les resistances medicamenteuses 
connues aux mutations observees . 

33) Methode d' identification de motifs, selon 
l'une quelconque des revendications 1 a 10, caracterise en 
ce qu'elle comprend, apres 1'etape (c) , une etape 
supplement a ire (e) de comparaison de motifs identifies lors 
de ladite etape (c) avec des motifs des sequences impliques 
dans un site catalytique et/ou dans des sites lies par des 
inhibiteurs non-corapet itif s . 
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